检索结果

Select

1. 基于万有引力的自适应近邻传播聚类算法

王治和, 常筱卿, 杜辉

计算机应用 2021, 41 (5): 1337-1342. DOI: 10.11772/j.issn.1001-9081.2020071130

摘要（346）

PDF （1267KB）（405）

针对近邻传播（AP）聚类算法对参数偏向参数（Preference）敏感、不适用于稀疏数据、聚类结果中会出现错误聚类的样本点的问题，提出基于万有引力的自适应近邻传播聚类（GA-AP）算法。首先，在传统AP算法的基础上采用引力搜索机制对样本进行全局寻优；其次，在全局寻优的基础上利用信息熵和自适应增强（AdaBoost）算法找到每个簇内正确聚类和错误聚类的样本点，并计算出这些样本点的权值，用计算出的权值更新对应的样本点，从而更新相似度、Preference取值、吸引度和隶属度，并进行重新聚类。不断操作以上步骤直到达到最大的迭代次数。通过在9个数据集上的仿真实验得出，相比于基于自适应属性加权的近邻传播聚类（AFW_AP）算法、AP算法、K均值聚类（K-means）算法和模糊C均值（FCM）算法，所提算法的纯度（Purity）、F值（F-measure）和准确率（ACC）的平均值分别最高提升了0.69、71.74%和98.5%。实验结果表明，所提算法降低了对偏向参数的依赖，提高了聚类效果，特别是对于稀疏数据集的聚类结果的准确率。

参考文献 | 相关文章 | 多维度评价

Select

2. 基于密度峰值与密度聚类的集成算法

王治和, 黄梦莹, 杜辉, 秦红武

计算机应用 2019, 39 (2): 398-402. DOI: 10.11772/j.issn.1001-9081.2018061411

摘要（828）

PDF （783KB）（353）

针对快速搜索和发现密度峰值聚类（CFSFDP）算法需人工在决策图上选择聚类中心的问题，提出一种基于密度峰值和密度聚类的集成算法。首先，借鉴CFSFDP思想，将局部密度最大的数据作为第一个中心；接着，从该中心点出发采用一种利用Warshall算法求解密度相连改进的基于密度的噪声应用空间聚类（DBSCAN）算法进行聚类，得到第一个簇；最后，在尚未被划分的数据中找出最大局部密度的数据，将它作为下一个簇的中心后再次采用上述算法进行聚类，直到所有数据被聚类或有部分数据被视为噪声。所提算法既解决了CFSFDP选择中心需人工干预的问题，又优化了DBSCAN算法，即每次迭代都是从当前最好的点（局部密度最大的点）出发寻找簇。通过可视化数据集和非可视化数据集与经典算法（CFSFDP、DBSCAN、模糊C均值（FCM）算法和K均值（K-means）算法）的对比实验结果表明，所提算法聚类效果更好，准确率更高，优于对比算法。

参考文献 | 相关文章 | 多维度评价

Select

3. 基于关联函数的数据流聚类算法

潘丽娜王治和党辉

计算机应用 2013, 33 (01): 202-206. DOI: 10.3724/SP.J.1087.2013.00202

摘要（1120）

PDF （776KB）（576）

传统数据流聚类算法大多基于距离或密度，聚类质量和处理效率都不高。针对以上问题，提出了一种基于关联函数的数据流聚类算法。首先，将数据点以物元的形式模型化，建立解决问题所需要的关联函数；其次，计算关联函数的值，以此值的大小来判断数据点属于某簇的程度；然后，将所提方法运用到数据流聚类的在线-离线框架中；最后，采用真实数据集KDD-CUP99和随机生成的人工数据集进行算法的测试。实验结果表明，所提方法的聚类纯度在92%以上，每秒能处理约6300条记录，与传统算法相比，处理效率有了较大的提高，在维度和簇数目方面的可扩展性较强，适用于处理大规模的动态数据集。

参考文献 | 相关文章 | 多维度评价

Select

4. 基于混合概率潜在语义分析模型的Web聚类

王治和王凌云党辉潘丽娜

计算机应用 2012, 32 (11): 3018-3022.

摘要（986）

PDF （743KB）（488）

在电子商务应用中，为了更好地了解用户的内在特征，制定有效的营销策略，提出一种基于混合概率潜在语义分析（HPLSA）模型的Web聚类算法。利用概率潜在语义分析（PLSA）技术分别对用户浏览数据、页面内容信息及内容增强型用户事务数据建立PLSA模型，通过对数—似然函数对三个PLSA模型进行合并得到用户聚类的HPLSA模型和页面聚类的HPLSA模型。聚类分析中以潜在主题与用户、页面以及站点之间的条件概率作为相似度计算依据，聚类算法采用基于距离的kmedoids 算法。设计并构建了HPLSA模型，在该模型上对Web聚类算法进行验证，表明该算法是可行的。

参考文献 | 相关文章 | 多维度评价